国际疾病分类(ICD)编码的频率分布呈现出长尾的情况,因此,对少样本编码进行多标签文本分类极具挑战性。针对少样本编码分类中训练数据不足的问题,提出了一种基于元网络的自动ICD编码模型(MNIC)。首先,将特征空间中的实例和语义空间中的特征拟合到同一个空间进行映射,并将频繁编码的特征表示映射到它的分类器权重上,从而通过元网络学习到元知识;然后将学习到的元知识从数据丰富的频繁编码转移到数据贫乏的少样本编码;最后,为元知识的可转移性和通用性提供了合理的解释。在MIMIC-Ⅲ数据集上的实验结果表明,与次优的AGM-HT(Adversarial Generative Model conditioned on code descriptions with Hierarchical Tree structure)模型相比,MNIC将少样本编码的Micro-F1与曲线下面积(Micro-AUC)分别提高了3.77和3.82个百分点,显著提高了少样本编码分类的性能。
红外小目标所占像素较少,且缺乏颜色、纹理、形状等特征,因此难以有效地跟踪它们。针对这一问题,提出了一种基于状态信息的红外小目标跟踪方法。首先,将待跟踪小目标局部区域的目标、背景和干扰物进行编码以得到连续帧之间密集的局部状态信息;其次,将当前帧和上一帧的特征信息输入分类器,得到分类得分;然后,融合状态信息和分类得分,从而得到最终置信度并确定待跟踪小目标的中心位置;最后,更新状态信息并在连续帧之间传播,在此之后利用传播的状态信息完成对整个序列中红外小目标的跟踪。在DIRST(Dataset for Infrared detection and tRacking of dim-Small aircrafT)数据集上评估所提方法。实验结果显示,所提方法针对红外小目标的跟踪召回率达到了96.2%,精确率达到了97.3%,相较于目前最优秀的通过跟踪方法KeepTrack召回率和精确率分别提高了3.7%和3.7%。这表明所提方法在复杂的背景与干扰下能有效完成针对红外小目标的跟踪。
针对在医疗命名实体识别(MNER)问题中随着网络加深,基于深度学习的识别模型出现的识别精度与算力要求不平衡的问题,提出一种基于深度自编码的医疗命名实体识别模型CasSAttMNER。首先,使用编码与解码间深度差平衡策略,以经过蒸馏的Transformer语言模型RBT6作为编码器以减小编码深度以及降低对训练和应用上的算力要求;然后,使用双向长短期记忆(BiLSTM)网络和条件随机场(CRF)提出了级联式多任务双解码器,从而完成实体提及序列标注与实体类别判断;最后,基于自注意力机制在实体类别中增加实体提及过程抽取的隐解码信息,以此来优化模型设计。实验结果表明,CasSAttMNER在两个中文医疗实体数据集上的F值度量可分别达到0.943 9和0.945 7,较基线模型分别提高了3个百分点和8个百分点,验证了该模型更进一步地提升了解码器性能。
高准确率的资源负载预测能够为实时任务调度提供依据,从而降低能源消耗。但是,针对资源负载的时间序列的预测模型,大多是通过提取时间序列的长时序依赖特性来进行短期或者长期预测,忽略了时间序列中的短时序依赖特性。为了更好地对资源负载进行长期预测,提出了一种基于长-短时序特征融合的边缘计算资源负载预测模型。首先,利用格拉姆角场(GAF)将时间序列转变为图像格式数据,以便利用卷积神经网络(CNN)来提取特征;然后,通过卷积神经网络提取空间特征和短期数据的特征,用长短期记忆(LSTM)网络来提取时间序列的长时序依赖特征;最后,将所提取的长、短时序依赖特征通过双通道进行融合,从而实现长期资源负载预测。实验结果表明,所提出的模型在阿里云集群跟踪数据集CPU资源负载预测中的平均绝对误差(MAE)为3.823,均方根误差(RMSE)为5.274,拟合度(R2)为0.815 8,相较于单通道的CNN和LSTM模型、双通道CNN+LSTM和ConvLSTM+LSTM模型,以及资源负载预测模型LSTM-ED和XGBoost,所提模型的预测准确率更高。